学术观点 | 黄立鹤、张德禄：多核并行架构——多模态研究的范式、路径及领域问题之辨 | 自由微信

学术观点 | 黄立鹤、张德禄：多核并行架构——多模态研究的范式、路径及领域问题之辨

语言学通讯语言学通讯 2021-03-17

相关阅读

期刊动态| 《外语教学》2018年总目录

期刊动态|《外语教学》2019年第1期目录

多核并行架构：多模态研究的范式、路径及领域问题之辨

摘要：根据库恩关于科学范式的定义，多模态研究可以视为一个类似于计算机科学中“多核并行架构”、综合多种路径的整合性研究范式。多模态概念可归结为三个：1）将其视为感官及相应的神经系统；2）将其视为在社会文化中形成的创造意义的符号资源；3）将其定义为人机交互中的信息呈现方式。多模态研究的路径及领域包括：1）符号学属性的研究；2）语料库语言学研究；3）神经科学、人机交互与学习科学中的研究。目前，多模态研究范式下的不同路径被应用至多个领域，正向探索人类多模态互动的脑机制、行为规律等基础性研究以及多模态应用性研发两个方向不断拓展。

关键词： 多模态；基本概念；整合范式；路径方法；多核并行

文献出处：2019年第1期《外语教学》，第21-25页

作者简介：黄立鹤，博士、同济大学副教授、硕导。研究方向：多模态、语用学、老龄化与语言蚀失研究。张德禄，同济大学特聘教授、博导。研究方向：系统功能语言学、文体学、话语分析、符号学、多模态话语分析等。

语言学通讯推荐书目

1. 引言

多模态研究跨越了人文社会科学与自然科学、工程技术等多个领域，成为前沿课题。但目前国内鲜有学者对多模态研究的基本概念、研究范式、不同路径及涉及领域进行整体图景式的解析，部分研究对多模态的理解存在误区。本文从“模态”定义入手，提出了多模态研究是一个类似于计算机科学中“多核并行架构”、综合多种路径并具有多个领域的整合性研究范式，其能够为语言学研究带来新的变革。

2. “模态”与“多模态”的定义

“多模态”的定义主要存在以下三个角度：

2.1 将“模态”视为感官及其相应的神经系统

现代脑科学研究喜用“模态”一词通指感官及其相应的神经系统（Kolb & Whishaw 2005:135），西方现代神经医学和胚胎学对多模态感官系统的研究取得了诸多重要成果。从该视角出发，“模态”被定义为人类通过感官系统（如视觉、听觉、触觉等）跟外部环境（如人、机器、物件、动物等）之间的互动方式。身心健康的人在正常情况下与外部世界（包括人际之间）的互动是多模态（至少是双模态）的。

2.2 将“模态”视为符号资源

此处的“模态”定义从符号学出发，是指“在社会文化中形成的创造意义的符号资源”（Kress 2010:79），即信息传递的不同形式、方式或渠道，如声音、图像、颜色、动作等，语言只是其中一种形式。这种意义呈现方式被称为多模态。对混合使用这些符号资源的话语进行系统分析，称为多模态话语分析（顾曰国 2015:1）。

2.3 将“模态”视为信息呈现方式

此处的“模态”被定义为一种信息呈现方式（Bernsen 2008:7）。所谓多模态人机交互，就是人们使用多种感官模态，通过多种物理媒介，与计算机等机器进行多渠道、多形式的信息交互。多模态人机交互系统一般分为三个主要模块：多通道信息获取、信息分析与融合、多通道信息输出（陶建华等2011:30）。

3. 多模态作为一个整合性研究范式

虽然上述各种“模态”定义不同，但笔者认为：

无论是将“多模态”视为多种符号资源，还是将其定义为人机交互中的信息呈现方式，其根本是依靠脑的多模态功能（顾曰国 2013:3），即语言的发生与发展、人类与外界的交际互动都需要多模态感官系统的支撑，人类的意义构建、传递及理解行为在本质上是由大脑的多模态协同机制支撑的。从生理学上说，大脑中的杏仁核细胞具有多模态工作特性，它们可以对一种以上的感官模态发出反应，包括视觉、听觉、触觉、味觉或嗅觉等刺激（Kolb & Whishaw 2005:411）。说话人参与自然会话时，多个大脑区域及相应的信息处理系统同时工作，大脑处理区域互相补偿、支持和勾连，从而在人们与外界互动、进行会话交际的过程中进行多模态处理。

但是，以多模态感官为基点的研究并非一开始就受到重视、引起人们关注的。福德认为人脑处理语言的心智机制是高度模块化的；乔姆斯基强调语言器官类似于人类的其他生理器官。虽然乔姆斯基的语言器官模型与福德的言语模块模型存在差异，但两者都认为语言器官或言语模块是天赋的，且是一个自主、自足的系统。换而言之，福德、乔姆斯基都是语言天赋论的支持者。两者都把与语言有关的感官模态默认为听觉及相关联的发音器官的神经控制系统。这两种思想可以归结为以单模态为基点的语言学基础研究（顾曰国 2015:451-454）。

然而，以多模态感官为基点的研究是对语言能力天赋论的否定（当然，我们不能否定人类语言的生理基础），而是认为语言是在出生后逐步构建、养成的，从人的出生到死亡，言语交际是多种感官共同支撑的，因此要用多模态视角考察儿童语言习得、言语交际、老年人语言蚀失。由此可见，这是一种与天赋论完全不同的语言观。科技进步能否带来更多的直接证据支持以多模态感官系统为支撑的语言学理论，值得期待。

不同的语言观指引着相关学者对语言现象采取不用以往的研究范式。库恩在其著名的《科学革命的结构》一书中指出，范式的改变能够使科学家对他们观察、研究世界看法发生改变。换而言之，科学革命是由科学家观察世界的概念网络的替换（displacement of the conceptual network through which scientists view the world）而引发的（Kuhn 1996:102）。因此，观察视野、研究范式的改变能够为一个研究领域带来新的发展，产生新的增长点。库恩认为，科学家在一个新范式指引下，会采用新工具，从而注意新领域。

受此启发，我们将多模态研究视为一种新的研究范式。该研究范式基于对语言的发生与发展、人类与外界的交际互动都需要多模态感官系统支撑这一前提，关注以往语言学研究中并不重视的意义表达及传递方式，对人类的言语交际进行新的研究。在该范式下，相关研究的总目标既包括探索人类多模态互动的脑机制、行为规律等基础性研究，也包括基于现代科技与未来发展的多模态应用性研发（黄立鹤、何继红 2013:95）。这是一种问题导向的研究范式，具有鲜明的跨学科属性，而不是限于学科界限而“画地为牢”的研究传统。

在多模态作为一个整合的研究范式下，研究者形成了共同的思维方式（认同人类交际的多模态本质）和认识论（认为意义是由多种模态构成、传递和识解的），逐步形成了多模态研究共同体，并确立了该研究共同体所需要解答的问题。当然，一个研究范式可以存在着多种研究路径。学者们将各种研究路径、方法应用至多个领域，发掘了新的研究对象。目前，多模态研究已运用至语言习得、语言蚀失（黄立鹤2015b:17）、会话分析、语用学（黄立鹤，2017:12；2018a：326-330；Huang, 2018:316）、修辞学（张德禄 2017:1-8；黄立鹤，2018b:117）、语言教学、濒危语言保护等诸多领域。

一旦范式既定，研究路径及操作方法成熟，并且有充足的、可持续的、具体的领域及课题，相关研究就能在此基础上快速发展，成为常规科学（normal science）。常规科学是在修正、扩展和表述业已存在的研究范式基础上形成的（Kuhn 1996: 122）。一门科学或相关研究之所以得以延续并发展，是因为有两个基本特征：一是有一批该领域中坚定的研究者；二是该领域始终可以为新的研究者提供充足的研究空间以及有待解决的问题（Kuhn 1996:10）。目前，多模态研究领域已经拥有一批学者长期耕耘，在基本的共同信念和默认前提下，开展了一系列研究，新的研究对象不断开拓，为多个领域的学者留出了充足的探索空间。关于这一点，下一节将予以介绍。

这里，笔者有必要强调一下多模态研究的路径方法与应用领域的区分。系统功能语言学框架下的多模态话语分析、社会符号学渊源的多模态研究、多模态互动分析、多模态语料库研究、人机对话中的多模态研究等都是多模态研究的不同路径、方法；但运用多模态研究方法对语言习得、语言蚀失、语用学、修辞学、语言教学等中各类问题进行分析，以及Jewitt, Bezemer & O’Halloran（2016:109-110）提及的地理符号学（Geo-semiotics）、多模态民族志研究（Multimodal ethnography）等则均属于多模态研究的具体领域，称不上一种研究路径或方法。读者应当对这一点有所认知。

4. 多模态范式下的不同路径、方法及领域

基于不同的“模态”定义，各类研究所采用的方法、路径也不尽相同。目前，语言学及相关领域中的多模态研究路径大体上包括：1）符号学属性的多模态研究；2）多模态语料库研究；3）神经科学、人机交互与学习科学中的研究等。

4.1 符号学属性的多模态研究

这一研究路径是广义的，包含了多个子路径，并且学者们将不同的研究路径应用至多个研究领域。这些子路径包括：以Kress和van Leeuwen为代表的社会符号分析派（如Kress & van Leeuwen, 2001; van Leeuwen, 2005），以O’Toole, Baldry, Thibault与O’Halloran为代表的系统功能语法框架下的话语分析派（如O’Halloran,2005），以及以Scollon与Norris为代表的多模态互动分析派（如Scollon & Scollon, 2004; Norris, 2004;Norris & Jones,2005）（Jewitt 2009:28-37）。这三种子路径在关注问题、研究目标、使用语料、操作方法等方面不尽相同，但具有很强的共同点，即将“模态”视为“符号资源”，认为人类交际的意义是通过多种符号资源共建的。

由于Halliday的系统功能语言学将语言视为社会符号，因此系统功能语言学框架下的多模态研究将社会符号的理论拓展至其他模态中，将所有符号模态都发展成产生意义的互相连接的可供选择的网络（胡壮麟 2007:5），并将源自系统功能语法中的分析范畴和方法运用至多模态话语中，如元功能、层次、连贯等。多模态研究就是要考察这些话语是如何通过各种符号的组合、设计布局以及变化进行意义传递的。

社会符号分析派聚焦人们如何利用作为意义潜势的多种符号模态实现特定社会意义。在对多模态话语的解读中，研究者注重语境因素，考察符号模态在多模态话语中的各自特征、组合规律，以及如何在某个语境中构建意义。

多模态互动分析派吸收了互动社会语言学、中介话语分析和多模态研究等方面的研究成果，在分析话语的同时将范畴拓展至社会行动（social action），认为符号模态、使用者与语境之间关系密切，强调语境概念与现场即席互动，在特定语境中考查社会互动、身份与关系构建等问题。

该路径下另一重要的领域是基于认知视角，同样把图像、手势、声音等视为符号资源，进行隐喻机制与认知特征等研究的多模态隐喻研究。多模态隐喻是一种源域和目标域分别或主要用不同模态表征的隐喻（Forceville & Urios-Aparisi 2009），它不仅体现在语言修辞、视觉画面或听觉声音等多个层次上，其本质是一种认知心理机制（黄立鹤，2015c:1）。近年来，Alison Gibbons等学者还提出了“多模态认知诗学”的概念，援引神经认知科学、视觉感知研究等学科领域内的研究成果，探究多模态表征与读者认知加工之间的关系，助推了数字化革命下产生的多模态文学研究，促进了对多模态符号资源加工机制的考察（Gibbons 2012；赵秀凤 2013:43）。

另外，随着现代技术的发展与阅读习惯的改变，多模态读写能力（Multiliteracy）也成为该研究路径下的热点领域。

4.2 多模态语料库研究

多模态语料库是指音频、视频和文字语料等多种信息集成，研究者可以通过多模态方式加工、检索和统计进行相关研究的语料库，堪称“语料库4.0版”（黄立鹤，2015a:1），其中“多模态”的含义是用于调用多模态进行语料处理（如视觉、听觉等），以及检索方式的多模态（如触觉、视觉、听觉等）（顾曰国 2013:3）。国外学者构建了不少规模各异的多模态语料库，以满足各种研究需要，并已在理论依据、语料采集、加工、标注、分析框架以及工具研发等方面形成了诸多成果（Knight 2011;Adolphs & Carter 2013）；国内的多模态语料库建设及相关研究也方兴未艾。多模态语料库（包括多模态言语行为语料的标注、切分与检索、图像的标注、切分与检索）的研发对于视听识别系统、人机智能对话等都具有重要意义。

相关研究认为，语言研究要以人们与外界的多模态互动作为重要的数据来源，面向具有充盈意义的现场即席话语，要对现场即席话语进行尽可能多的、贴真的数据采样，通过视频流、音频流等结合的多媒体介质，力争模拟人们鲜活的、充盈的多模态交互过程[i]。一般而言，多模态语料库研究通过录音、录像、文字转写等进行数据采样。如果进一步使用fMRI（功能性核磁共振成像）、ERP（事件相关电位）、PET（正电子发射计算机断层扫描）等手段采集大脑活动数据，则是更多的模态数据采样（顾曰国 2013:4）。

多模态语料库可运用在多个语言研究方向，如语用学、话语分析、语言蚀失研究、语言习得研究等。还有学者以社会行为心理学、行为生态学和感知生态学为理论依据，利用多模态语料库这一具体操作手段，研究“整人”（the whole person）在现场即席话语（situated discourse）中的言语活动，在此基础上构建属于行为理论的多模态研究（Gu 2006:127; 2009:433; 顾曰国 2013:1）。另外，还可借助多模态语料库开展教学研究和人文社科研究。

4.3 神经科学、人机交互及学习科学中的多模态研究

多模态研究在神经科学中也占有重要位置，神经科学的研究内容之一是考察语言的理解、产出的脑机制，以及其他大脑功能区在言语交际中的作用，而言语交际的多模态本质要求神经科学关注言语活动中多个脑区的协同作用。另外，对失语症及其他言语障碍患者、正常衰老及智退症老年人等人群的多模态交际研究，也是具有现实意义的课题。

一方面，现代信息技术与人工智能的发展使得人类与外界信息交互的渠道和方式不断拓展；另一方面，人类语言交流的多模态本质又是言语工程、人机交互、人工智能等必须面对的关键问题，多模态语言研究能够促进相关领域的研发。这些研究至少包括：人工智能如何识别人类的多模态信息传入，包括人脸检测与识别、表情分析、语音情感分析、姿态识别、运动分析等；如何对多通道输入的信息进行综合分析、判断，实现多模态信息融合、提高机器的综合“认知”能力；如何以多模态的方式产出信息，如虚拟人或机器人通过语音、动作甚至表情与人类的互动。

目前，国内外学者针对多模态信息处理、对话管理、情感识别等人机交互的核心内容进行了广泛、深入的研究（van Kuppevelt, Dybkjær & Bernsen, 2005；Maragos,Potamianos & Gros 2008；陶建华等 2011:30）。世界各国都将多模态人机交互及人工智能开发视为重要的战略前沿课题，如德国的SmartKom项目当属该领域的重要代表（Wahlster 2006）；20世纪90年代起，我国863计划“多功能感知技术”项目先后实现了一系列多模态人际交互的原型系统。

另外，多媒体与人机互动技术的发展带来了多模态学习研究。相关研究包括：学习者在学习过程中如何调用多种模态、大脑认知过程及学习规律如何；多模态互动技术（如可穿戴设备等）在教学中的效度如何；多模态学习中的内化度、持久性及效率如何（Baldry 2000；顾曰国 2007:3）；多模态理论如何服务语言教学（张德禄，王璐 2010:97；张德禄2012:9；黄立鹤 2014:11）等。

5. 多核并行架构：一个隐喻

综上所述，笔者对目前多模态研究的基本概括思路是：一个整合的多模态研究范式，多个不同的路径方法，运用到N个不同的具体领域。

5.1 多核并行的内涵

笔者借用计算机科学中单芯片多核处理器的概念，将其作为隐喻来解释这一概括思路。单芯片多核处理器是指多个计算内核集成在单个处理器芯片上，这种处理器在单位时间内可以同时处理多个线程，提升了任务执行的并行性。这种架构被称为多核并行架构（Multi-core Parallel System）。多核之间能够互相通信，共享使用内存[1]。(参考《多核多线程技术》，英特尔软件学院教材编写组. 上海：上海交通大学出版社，2011：10-20.)

我们可以将多模态研究范式视为计算机中的一个整体“芯片”，承载着多个“内核”，即多个研究领域，并行的“线程”是指多模态研究的多种路径或方法，它们为不同现象或问题提供解决方案。多核之间的“通信”就是多种多模态路径或方法之间的借鉴、融合；“内存”就是在人类交际具有多模态本质这一问题上达成的共识。

不同研究路径或方法相对稳定地面向不同的研究领域，共同整合在多模态研究范式下，这些研究领域相对独立、并行发展又互相联系。这种“多核整合、多线并行”的多模态研究格局能够形成强大的解释能力和研发能力，促使多模态研究的整体跃进。

下图是参照计算机单芯片多核并行架构绘制的“作为整合性范式的多模态研究”图景：

由上图可知，“内核”（研究领域）越多，意味着研究者对多模态现象的挖掘、多模态技术的研发就越多；“内核”之间的“通信”（研究路径和方法的借鉴、融合）也就越多、越紧密。“芯片”（作为整体范式的多模态研究）处理能力越强，意味着研究者对人类交际中多模态现象的基础性解释能力、应用性研发能力就越强大、越深入。

5.2 核间通讯、线程关系之于多模态研究中各路径、方法及领域的关系

我们知道，在多核处理器中，各个内核之间必须保持核间通讯。在多模态研究中，就是指各个多模态研究领域之间的概念、方法以及成果上的借鉴与共享。例如，符号学属性的多模态研究也可以借用语料库语言学的操作方法。Kay O’Halloran教授领衔开发的MMAV多模态分析软件是基于系统功能语言学开发的，实现了音视频语料的切分标注功能，如果实现一定规模的样本量，并且基于样本进行检索、统计及分析，同样具有多模态语料库的研究属性。另外，多模态语料库也可为人机对话、学习科学中的多模态技术研发提供基础数据与应用平台。

各个领域之间的解释与研发任务分工犹如基于多核处理器的Window系统在操作时，要向多核处理器分配任务，形成若干个线程。当多模态研究范式中的研究者面对解释多模态现象、研发多模态技术时，要根据研究问题或研发任务，将其定位于一个合适的主要多模态研究领域（即分配至一个内核），然后运用该领域的路径或方法，对其进行解读或研发。例如，在符号学属性的多模态研究这一“内核”中，研究者可以借用系统功能语言学多模态话语分析路径考察多种模态资源如何体现社会功能，社会符号学则擅长分析交际者之间的社会与权势关系；而语料库语言学路径的多模态研究这一“内核”则擅长分析各个模态资源的共现规律等；另一“内核”多模态技术研发与学习科学中的多模态设计也有自己的关注重点。可见，各个“内核”具有相对独立的“计算能力”（即研究专长），针对不同的多模态现象或问题。

当研究者面对不同情境下人类语言交际的各种多模态现象或问题时，首先应当判断其归属哪个领域，随后调用相应的研究路径或方法对其进行分析阐释。这犹如计算机操作系统在接受任务后，会将其分配至某个内核进行处理。当然，在有些情况下，由于问题或任务的复杂性，某个研究问题或研发任务会涉及多个领域，就需要研究者选取多个研究路径或方法，在处理加工时实现“核间通讯”（即在多个多模态研究领域中开展协同研究），对某些多模态现象进行跨路径、跨领域的研究，好比计算机操作系统将某个任务分配给多个内核同时处理、计算，从而共同完成这一研究或研发目标。

当然，目前各个多模态研究领域的研究术语并不一致，各个领域的关注视阈也存在重叠或盲区，各领域中学者们之间的互通性有待加强。随着多模态作为一个整体研究范式的不断演进、提升，这些“内核”之间的融合性、协同性必将进一步增强，从而提升“芯片”的计算能力，即提高多模态研究范式的整体解释和研发能力。

6. 结语

现代语言学的变迁，从索绪尔的结构主义语言学到乔姆斯基转换生成语言学，再到韩礼德的系统功能语言学、认知语言学等，都是研究范式的变化或革新。将多模态研究视为一个整体范式，会对人类的言语交际研究带来新的视野、产生新的研究成果。但这并不意味着这种范式是惟一的，或者说要替代其他的语言学研究范式。正如库恩解释的那样，虽然量子力学的发展给物理学带来了新范式，但牛顿经典力学范式仍然在起作用，物理学家仍然需要它解释、研究很多物理现象。同样的，多模态研究范式并不是万能的，它为语言学家打开了新的窗户，但其他语言学研究仍然具有不可替代的解释力。读者需要注意的是，目前多模态研究在国内日益受到重视，但也有一拥而上、不求甚解之嫌。部分研究或是模糊了多模态的不同定义与内涵，或是对各种研究路径及方法区分不清。这并不利于多模态研究的整体发展。

从研究类型上看，目前多模态范式下的研究领域既有基础研究，也有应用研发。从基础研究角度上说，多模态研究的一头连接着脑科学、心理学或认知神经科学等，探究人类与外界进行交互的生理、心理机制。另一头则通过符号学、行为学等，考察人类多模态交互中的意义表达、传递、理解机制；从应用研发角度上说，人们利用多模态基础研究的成果，思考如何利用自身大脑的多模态协同机制以及人们与外界的多模态交互规律，开发服务于人类自身发展的相关技术。

未来的多模态语言研究及相关领域的考察应当重视以下几个方面：人类与外界多模态交互的脑机制究竟如何；言语障碍人士、其他脑功能受损人士或智退症老年人等特殊人群的多模态交互有何特点；多模态交互技术如何帮助残障人士更好地与外界交互；多模态研究如何对语言学的研究范畴和经典理论进行升级；多模态交互在社会传播、文化传承、文明发展中的作用；如何利用多模态技术服务于人类学习；如何提升人工智能的多模态交互准确度等。这一系列问题都是面向未来且具有重要意义的课题。

多模态范式为各种交叉研究和综合应用提供了切入口，跨越了多个学科领域，最终目的就是要揭示人类与外界互动的本质规律，并开发基于这种规律的、服务于人类发展的先进技术。多模态研究的蓬勃发展让我们看到了语言学承担共同揭示人类行为本质、推动相关应用科技发展的学术使命，以及语言学跻身于先进学科、前沿科技的发展前景。

（参考文献略）

祝大家2019科研大成

科研助力|“语言学通讯博士论丛”书稿征集

专著推荐|朱晓敏：语料库在翻译本科生翻译能力建设中的应用研究

专著推荐|李学宁：系统功能语言学在自然语言处理中的知识表示研究

专著推荐|邹崇理：《自然语言信息处理的逻辑语义学研究》

专著推荐|吴琳：动补式复合词的词法理论与应用研究

专著推荐|管新潮《语料库与Python应用》

专著推荐|龚晓睿：威•休•奥登诗歌中的绘画艺术研究

专著推荐|杨小虎：非语言因素对外语语音学习的影响研究

专著推荐|杨唐峰博士：英语短语动词的认知研究

专著推荐|语音感知视角下的英语外国口音研究